Despite recent progress towards scaling up multimodal vision-language models, these models are still known to struggle on compositional generalization benchmarks such as Winoground. We find that a critical component lacking from current vision-language models is relation-level alignment: the ability to match directional semantic relations in text (e.g., "mug in grass") with spatial relationships in the image (e.g., the position of the mug relative to the grass). To tackle this problem, we show that relation alignment can be enforced by encouraging the directed language attention from 'mug' to 'grass' (capturing the semantic relation 'in') to match the directed visual attention from the mug to the grass. Tokens and their corresponding objects are softly identified using the cross-modal attention. We prove that this notion of soft relation alignment is equivalent to enforcing congruence between vision and language attention matrices under a 'change of basis' provided by the cross-modal attention matrix. Intuitively, our approach projects visual attention into the language attention space to calculate its divergence from the actual language attention, and vice versa. We apply our Cross-modal Attention Congruence Regularization (CACR) loss to UNITER and improve on the state-of-the-art approach to Winoground.
translated by 谷歌翻译
Pretrained language models have demonstrated extraordinary capabilities in language generation. However, real-world tasks often require controlling the distribution of generated text in order to mitigate bias, promote fairness, and achieve personalization. Existing techniques for controlling the distribution of generated text only work with quantified distributions, which require pre-defined categories, proportions of the distribution, or an existing corpus following the desired distributions. However, many important distributions, such as personal preferences, are unquantified. In this work, we tackle the problem of generating text following arbitrary distributions (quantified and unquantified) by proposing Nano, a few-shot human-in-the-loop training algorithm that continuously learns from human feedback. Nano achieves state-of-the-art results on single topic/attribute as well as quantified distribution control compared to previous works. We also show that Nano is able to learn unquantified distributions, achieves personalization, and captures differences between different individuals' personal preferences with high sample efficiency.
translated by 谷歌翻译
多模式机器学习是一个充满活力的多学科研究领域,旨在通过整合多种沟通方式,包括语言,声学,视觉,触觉和生理信息,以智能能力(例如理解,推理和学习)来设计计算机代理。鉴于最近对视频理解的兴趣,具有体现的自主代理,文本到图像的生成以及医疗保健和机器人技术等应用领域的多传感器融合,多模式的机器学习为机器学习社区带来了独特的计算和理论挑战数据源和互连经常在模式之间发现。但是,多模式研究的进展广度使得难以确定该领域的共同主题和开放问题。通过从历史和最近的角度综合了广泛的应用领域和理论框架,本文旨在概述多模式机器学习的计算和理论基础。我们首先定义了驱动后续创新的两个关键原理和互连的两个关键原则,并提出了6种核心技术挑战的分类法:代表,对齐,推理,推理,发电,转移和量化涵盖历史和最新趋势。最新的技术成就将通过该分类法的角度提出,使研究人员能够了解新方法之间的相似性和差异。最后,我们激发了我们分类法确定的未来研究的几个开放问题。
translated by 谷歌翻译
仔细构建和介绍了一系列包含文本和数字的页面,这些页面是一系列页面,并仔细构建并呈现,以便将知识最佳地转移给学生。先前在多媒体和心理学方面的研究将演讲的有效性归因于其多模式的性质。为了开发AI的一步,以帮助学生学习作为智能教师助理,我们将多模式演讲演示文稿数据集作为大规模的基准测试,以测试机器学习模型在多模式了解教育内容的能力。我们的数据集包含一个对齐的幻灯片和口语,用于180多个小时的视频和9000多个幻灯片,其中10位来自各种主题的讲师(例如,计算机科学,牙科,生物学)。我们介绍了两项研究任务,它们被设计为对AI代理商的垫脚石,这些阶梯可以解释(自动为演讲演示字幕),并说明(综合视觉图形以伴随口语解释)教育内容。我们提供手动注释,以帮助执行这两项研究任务并评估其最新模型。比较基线和人类学生的表现,我们发现当前模型在(1)幻灯片和口语文本之间的较弱的跨模式对齐中挣扎,(2)学习新颖的视觉介质,(3)技术语言和(4)(4)远程序列。为了解决这个问题,我们还引入了Polyvilt,这是一种多模式变压器,经过多种模式的学习损失,比目前的方法更有效。最后,我们阐明了对教育演示的多模式理解的挑战和机遇。
translated by 谷歌翻译
创建人工社会智能 - 可以理解多人互动的细微差别的算法 - 在处理多模式视频的面部表情和手势方面是一个令人兴奋的新兴挑战。最近的多模式方法已经在许多任务上设定了最新的现状,但是很难在社交互动中对复杂的面对面对话动态进行建模,尤其是在自我监督的设置中。在本文中,我们提出了面对面的对比学习(F2F-CL),这是一个图形神经网络,旨在使用分解节点对社交互动进行建模,以将沿语言转弯界限的多模式面对面互动进行上下文。借助F2F-CL模型,我们建议在同一视频中不同口语转弯的分数节点之间进行对比学习。我们通过实验评估了具有挑战性的社会IQ数据集并显示了最先进的结果。
translated by 谷歌翻译
多模型对现实世界应用的承诺激发了可视化和理解其内部力学的研究,其最终目标是使利益相关者能够可视化模型行为,执行模型调试并促进对机器学习模型的信任。但是,现代的多模型模型通常是黑盒神经网络,这使得了解其内部力学变得具有挑战性。我们如何能在这些模型中可视化多模式相互作用的内部建模?我们的论文旨在通过提出Multiviz来填补这一空白,这是一种通过将可解释性问题分为4个阶段来分析多模型模型行为的方法:(1)单峰的重要性:每种模式如何有助于下游建模和预测,(2)交叉交叉。 - 模式相互作用:不同模态如何相互关系,(3)多模式表示:如何在决策级特征中表示单峰和跨模式的交互作用,以及(4)多模式预测:决策级特征如何组成以制造一个预言。 Multiviz旨在在不同的模式,模型,任务和研究领域进行操作。通过对6个现实世界任务的8个训练模型的实验,我们表明,Multiviz中的互补阶段共同使用户能够(1)模拟模型预测,(2)将可解释的概念分配给功能,(3)对模型错误分析执行错误分析,(4)使用错误分析到调试模型的见解。 Multiviz公开可用,将定期使用新的解释工具和指标进行更新,并欢迎社区的意见。
translated by 谷歌翻译
通常通过过去的选择来告知机器学习中的评估,例如要使用哪些数据集或指标。该标准化可以使用排行榜对平等基础进行比较,但是随着出现更好的替代方案,评估选择变得不佳。这个问题在自然语言生成中尤其相关,该语言需要不断改善的数据集,指标和人类评估以提出确定性的主张。为了使遵循最佳模型评估实践更加容易,我们介绍了GEMV2。新版本的一代,评估和指标基准为数据集,模型和指标开发人员提供了模块化基础架构,以使彼此受益。GEMV2支持40种记录的数据集中51种语言。所有数据集的模型都可以在线评估,我们的交互式数据卡创建和渲染工具使得在Living Benchmark中添加新数据集变得更加容易。
translated by 谷歌翻译
语言模型既展示了定量的改进,又展示了新的定性功能,随着规模的增加。尽管它们具有潜在的变革性影响,但这些新能力的特征却很差。为了为未来的研究提供信息,为破坏性的新模型能力做准备,并改善社会有害的效果,至关重要的是,我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战,我们介绍了超越模仿游戏基准(Big Bench)。 Big Bench目前由204个任务组成,由132家机构的442位作者贡献。任务主题是多样的,从语言学,儿童发展,数学,常识性推理,生物学,物理学,社会偏见,软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号,Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为,跨越了数百万到数十亿个参数。此外,一个人类专家评估者团队执行了所有任务,以提供强大的基准。研究结果包括:模型性能和校准都随规模改善,但绝对的术语(以及与评估者的性能相比);在模型类中的性能非常相似,尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分,而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标;社交偏见通常会随着含糊不清的环境而随着规模而增加,但这可以通过提示来改善。
translated by 谷歌翻译
拥有丰富的多模式内在语言是人类智力的重要组成部分,它可以实现多种必要的核心认知功能,例如多模式预测,翻译和生成。在有意识的图灵机(CTM)的基础上,这是Blum and Blum提出的意识模型(2021),我们描述了一种称为Brainish的多模式的Desiderata,包括单词,图像,音频和感觉,结合了CTM的表示形式处理器用来相互通信。我们在通过多模式人工智能的镜头进行操作之前定义了大脑的语法和语义,这是一个充满活力的研究区域,研究了处理和关联异质信号信息所需的计算工具。我们学习的一般框架涉及设计(1)单峰编码器以细分并表示非模态数据,(2)协调的表示空间,该空间将和编写单峰特征与多模式输入的整体含义相关联,以及(3)解码器以映射多模式表示形式。进入预测(用于融合)或原始数据(用于翻译或生成)。通过讨论为了在CTM中实现意识以及实施简单版本的脑部和评估其在几个现实世界图像,文本和文本和检索任务上展示智能的能力,通过讨论对沟通和协调的脑力至关重要音频数据集,我们认为这种内在语言对于机器智力和意识模型的进步将很重要。
translated by 谷歌翻译
为了使AI安全地在医院,学校和工作场所等现实世界中安全部署,它必须能够坚定地理解物理世界。这种推理的基础是物理常识:了解可用对象的物理特性和提供的能力,如何被操纵以及它们如何与其他对象进行交互。物理常识性推理从根本上是一项多感官任务,因为物理特性是通过多种模式表现出来的,其中两个是视觉和声学。我们的论文通过贡献PACS来朝着现实世界中的物理常识推理:第一个用于物理常识属性注释的视听基准。 PACS包含13,400对答案对,涉及1,377个独特的物理常识性问题和1,526个视频。我们的数据集提供了新的机会来通过将音频作为此多模式问题的核心组成部分来推进物理推理的研究领域。使用PACS,我们在我们的新挑战性任务上评估了多种最先进的模型。尽管某些模型显示出令人鼓舞的结果(精度为70%),但它们都没有人类的绩效(精度为95%)。我们通过证明多模式推理的重要性并为未来的研究提供了可能的途径来结束本文。
translated by 谷歌翻译